/misc/data26-brs/ENCORTV1/voice_conv/univnet
La meilleure qualité qu'on peut atteindre en recréant une voix de manière synthétique est limitée par le vocodeur, qui est la composante chargée de produire le son final. Ici on démontre quelle qualité pourrait être atteinte dans les meilleures conditions en utilisant le vocodeur UnivNet (version c32), entraîné sur 192 heures de parole lue (sous-ensemble train-clean-360 de LibriTTS).
Le signal est produit avec une fréquence d'échantillonnage de 24 kHz plutôt que 48 kHz pour que la quantité de données et les calculs nécessaires restent raisonnables.
À partir d'un audio original, par exemple test_waves/Salvage_Hunters_S03_Ep21_short.wav:
On extrait une représentation simplifiée, sous forme de spectrogramme:
Le vocodeur recrée l'audio en se basant uniquement sur cette représentation.
Dans la conversion de voix, on va modifier la représentation pour changer l'identité du locuteur, ce qui va introduire des distorsions supplémentaires. Ici, en utilisant la représentation intacte, sans appliquer de conversion, on peut vérifier quels résultats pourraient être obtenus si la représentation était modifiée de façon optimale par la conversion de voix:
Pris au hasard parmi les séries, donc de la parole qui n'est pas lue, contrairement aux données d'entraînement.
1. Audio original: test_waves/KillerClowns_S01_EP01_short.wav
1. Audio reconstruit: output/KillerClowns_S01_EP01_short_reconstructed_epoch0288.wav
2. Audio original: test_waves/KillerClowns_S01_EP01_long.wav
2. Audio reconstruit: output/KillerClowns_S01_EP01_long_reconstructed_epoch0288.wav
3. Audio original: test_waves/Mayday_S07_Ep54_short.wav
3. Audio reconstruit: output/Mayday_S07_Ep54_short_reconstructed_epoch0288.wav
4. Audio original: test_waves/TedBundyTheSurvivors_EP01_short.wav
4. Audio reconstruit: output/TedBundyTheSurvivors_EP01_short_reconstructed_epoch0288.wav
5. Audio original: test_waves/TedBundyTheSurvivors_EP01_long.wav
5. Audio reconstruit: output/TedBundyTheSurvivors_EP01_long_reconstructed_epoch0288.wav
6. Audio original: test_waves/Salvage_Hunters_S03_Ep21_short.wav
6. Audio reconstruit: output/Salvage_Hunters_S03_Ep21_short_reconstructed_epoch0288.wav